Agent Lightning: обучите любого AI-агента с помощью RL на основе реальных трассировок
'Microsoft выпустила Agent Lightning, который конвертирует трассы выполнения агентов в переходы для RL обучения LLM с минимальными изменениями в стеке.'
Найдено записей: 11
'Microsoft выпустила Agent Lightning, который конвертирует трассы выполнения агентов в переходы для RL обучения LLM с минимальными изменениями в стеке.'
'Andrej Karpathy опубликовал nanochat — минимальный end-to-end стек для обучения и развёртывания ChatGPT-подобных моделей, который можно прогнать за ~4 часа на одном 8×H100 за ~100 долларов.'
'ZenFlow устраняет CPU-вызываемые простои GPU и ускоряет дообучение LLM до 5×, требуя только минимальных изменений в конфигурации DeepSpeed.'
ИИ развивается благодаря самоусовершенствованию через улучшение кодирования, оптимизацию инфраструктуры и автономные исследования, ускоряя путь к суперразуму.
Sakana AI представляет Reinforcement-Learned Teachers (RLTs) — новый подход, который обучает небольшие модели эффективно преподавать рассуждение большим языковым моделям через RL, ориентированное на создание пошаговых объяснений.
AREAL — новая асинхронная система усиленного обучения, которая значительно ускоряет обучение больших моделей рассуждений, разделяя процессы генерации и обучения и достигая до 2.77× быстрейшего обучения без потери точности.
Meta представила LlamaRL — инновационный масштабируемый асинхронный RL-фреймворк на PyTorch, который значительно ускоряет обучение больших языковых моделей при оптимальном использовании ресурсов.
Исследователи из Shanghai AI Laboratory предложили энтропийные законы масштабирования и новые методы для преодоления коллапса исследования в обучении с подкреплением больших языковых моделей, достигнув заметного улучшения результатов.
В этом руководстве показано, как эффективно дообучить модель Qwen3-14B на Google Colab с помощью Unsloth AI, используя 4-битную квантзацию и LoRA для экономии памяти при обучении на смешанных наборах данных.
Университет Цинхуа и ModelBest представили Ultra-FineWeb — триллионный многоязычный датасет, значительно повышающий точность крупных языковых моделей благодаря инновационной фильтрации данных.
Исследователи Университета Цинхуа создали парадигму Absolute Zero для обучения больших языковых моделей без внешних данных с помощью системы самосовершенствования на основе кодового исполнителя.